導(dǎo)讀:搜索引擎會給予每一個頁面一定的權(quán)重值,這個值也會隨著頁面的更新和時間地流逝而改變。今天,小小課堂SEO自學(xué)網(wǎng)為大家?guī)淼氖恰禨EOer應(yīng)善用索引創(chuàng)建過程中的加權(quán)方法》。希望
發(fā)表日期:2019-10-27
文章編輯:興田科技
瀏覽次數(shù):10888
標(biāo)簽:
搜索引擎會給予每一個頁面一定的權(quán)重值,這個值也會隨著頁面的更新和時間地流逝而改變。
今天,小小課堂SEO自學(xué)網(wǎng)為大家?guī)淼氖恰禨EOer應(yīng)善用索引創(chuàng)建過程中的加權(quán)方法》。希望對大家有所幫助。
一、索引創(chuàng)建中的權(quán)值
搜索引擎蜘蛛的爬行與抓取,頁面的收錄與索引,是一個頁面能夠在用戶搜索關(guān)鍵詞時能夠獲得展現(xiàn)的幾個基本步驟,其中索引創(chuàng)建中包含著對頁面內(nèi)容本身的加權(quán)因素。
① 索引項權(quán)值概念
索引項的權(quán)值,在一定程度上反應(yīng)了文檔中詞的相對重要性,這個值通常用于索引排序過程中計算分值,也就是影響搜索引擎排序的重要因素之一。
② 索引項權(quán)值怎么得來的?
索引項權(quán)值,是由檢索模式中的加權(quán)組件利用文檔統(tǒng)計結(jié)果來計算得出的。
③ 索引項加權(quán)方法
傳統(tǒng)的檢索模式中最常見的加權(quán)方法:TF-IDF算法。
二、TF-IDF算法
① TF-IDF算法定義
TF-IDF算法,基于索引項出現(xiàn)在一個文檔中的次數(shù)或頻率,以及索引項在整個文檔集合中出現(xiàn)的頻率,兩者的組合(或者說兩者的乘積)。
② TF-IDF算法中詞的解析
1)TF
次數(shù)和頻率稱之為詞頻,英文簡稱為tf。
2)IDF
索引項在整個文檔集合中出現(xiàn)的頻率,稱之為范文檔頻率,英文簡稱為idf。
③ TF-IDF算法的簡單說明
TFIDF的核心思想,是指某個詞或某個短語在一篇文檔中出現(xiàn)的頻率高,并且在索引庫的其他文檔中出現(xiàn)較少,就認(rèn)為這個詞或短句有很好的類別區(qū)分能力,可以用來進(jìn)行分類。
簡單來講,某個詞或某個短語就是索引詞,對于這篇文章而言,該詞項將被賦予較高的權(quán)值。
打個比方說,“TWNM-SEO”這個短語完全是小小課堂網(wǎng)提出的,在《全網(wǎng)營銷SEO【TWNM-SEO】這就是屬于我的網(wǎng)站優(yōu)化》一文中,這個短語出現(xiàn)的頻率非常高,同時,在此之前也沒有其他人提到過這個短語,那么對于這篇文檔來講,該詞項“TWNM-SEO”就被賦予了很高的權(quán)值。
三、理解并使用TF-IDF算法
對于SEOer來講,了解上面的知識已經(jīng)足夠了,沒必要非得知道是用哪個函數(shù),哪個公式算出來的結(jié)果。
其實,通過TF-IDF算法的學(xué)習(xí),我們可以更好理解一些常識性的SEO知識。
① 品牌詞容易優(yōu)化
品牌詞一般是自己創(chuàng)造的,滿足TF值大,同時IDF值大,頁面加權(quán)高,自然排名很容易。
② 行業(yè)核心詞難優(yōu)化
無數(shù)網(wǎng)站都在優(yōu)化這同一個詞,然而首頁的位置卻是有限的,大家都滿足TF大,但同樣IDF越小,證明這個詞越難優(yōu)化。
這也就是平時在判斷關(guān)鍵詞優(yōu)化難度時,為什么將百度搜索的相關(guān)結(jié)果數(shù)作為優(yōu)化難度之一的原因。
③ 多挖掘沒有百度指數(shù)的關(guān)鍵詞-降低優(yōu)化難度
行業(yè)中有百度指數(shù)的詞,大家都在做優(yōu)化與排名,這樣的詞不光是競爭壓力大,可能還帶不來多少點擊。因為百度指數(shù)可能是100,真實用戶也許只有2個,另外的98個都是企業(yè)的競爭者們。
我們應(yīng)該挖掘一些沒有百度指數(shù)的詞,但是需要這次保持一定的搜索量,這樣可以保證降低優(yōu)化難度的同時,帶來更多真實流量。
④ TF并不是萬能!過度堆積害處大!
根據(jù)TF-IDF算法,很多人會想,增加關(guān)鍵詞密度或頻率,以增加TF值,從而獲得更好的排名。然而,這種做法可以適當(dāng)做,但超過一定度的話,沒什么好處,反而可能會因為過度堆積被搜索引擎降權(quán)!
所謂的2%~8%的關(guān)鍵詞密度只是個大概范圍,很多排名好的頁面很多都在2%一下,當(dāng)然也有在8%以上的,只要密度不是過小,不必過度在乎這個。
舉個例子,已經(jīng)是5%的密度了,非要故意堆積到8%,甚至百分之20%,就會變得非常沒有意義。這是對TF高的一種誤解。
也就是我們能夠根據(jù)TF-IDF算法中得到的啟發(fā)是不應(yīng)該讓關(guān)鍵詞的密度或頻率(TF)過低,然而對于IDF來說,我們只能通過尋找IDF值高的關(guān)鍵詞來優(yōu)化,如果我們優(yōu)化的關(guān)鍵詞的IDF值本來就很低,我們也不能對其改變這個現(xiàn)狀,IDF值越低,證明這個詞在一定程度上就越難優(yōu)化。
所以,在網(wǎng)站優(yōu)化過程中,除了要做好頁面外,還需要關(guān)注內(nèi)鏈與外鏈優(yōu)化。
四、TF-IDF算法公式
① TF公式
TF(i,j):關(guān)鍵詞j在文檔i中的出現(xiàn)頻率。
n(i,j):關(guān)鍵詞j在文檔i中出現(xiàn)的次數(shù)。
舉例來講:
一篇文章總共100個詞,其中“SEO培訓(xùn)”一共出現(xiàn)了10詞,那么TF就是10/100,結(jié)果就是0.1。
然而,由于文章中會出現(xiàn)大量的“的”、“得”、“嗎”、“地”,不能正常反應(yīng)文章的詞,所以,就得用IDF來做一個限制了。
② IDF公式
IDF(i):詞語i的反文檔頻率
|D|:語料庫中的文件總數(shù)
|j:t(i)屬于d(j)|出現(xiàn)詞語i的文檔總數(shù)
+1是為了防止分母變0。
IDF就可以防止常用詞的干擾了。
還是剛才的例子:
一篇文章總共100個詞,其中“SEO培訓(xùn)”一共出現(xiàn)了10詞,那么TF就是10/100,結(jié)果就是0.1。
另外“我們”一共出現(xiàn)了10詞,其TF結(jié)果也是0.1。
假設(shè)語料庫總共有1000篇文章,其中“SEO培訓(xùn)”文章有10篇,“我們”文章有1000篇。
“SEO培訓(xùn)”的IDF=log(1000/10)= 2
“我們”的IDF=log(1000/1000)= 0
③ TF-IDF公式
TF-IDF = TF*IDF
“SEO培訓(xùn)”的TF*IDF=0.1*0=0
“我們”的TF*IDF=0.1*2=0.2
那么很顯然,對于這篇文章而言,“SEO培訓(xùn)”比“我們”更加重要。
以上就是小小課堂SEO自學(xué)網(wǎng)為大家?guī)淼氖恰禨EOer應(yīng)善用索引創(chuàng)建過程中的加權(quán)方法》。感謝您的觀看。SEO培訓(xùn)認(rèn)準(zhǔn)小小課堂!更多seo教程搜索小小課堂。原創(chuàng)文章歡迎轉(zhuǎn)載并保留版權(quán):https://www.xxkt.org/
本文來源:A5上一篇:
暫無信息更多新聞
2020
關(guān)于seo優(yōu)化,“熊掌號”和“SEO”到底哪個好并不確切,從不同的角度看有不同的優(yōu)點和好處?!靶苷铺枴钡闹黧w是移動端,高質(zhì)量的內(nèi)容才能使“熊掌號”發(fā)揮
View details
2020
關(guān)于seo,因為種種原因,很多時候需要修改網(wǎng)站名稱,這種行為是會影響seo的,從結(jié)果分析來說,修改得好有利于網(wǎng)站的seo結(jié)果,反之亦然。站點名的修改可以是首頁標(biāo)
View details
2020
關(guān)于搜索引擎優(yōu)化,站點SEO優(yōu)化換域名需要站點做好301個站點,并且使用搜索資源平臺的改版工具(原站長平臺),可以保證站點的流量損失最小化;但是搜索資源平臺
View details
2020
關(guān)于搜索引擎優(yōu)化,在做網(wǎng)站SEO優(yōu)化時,很多Seoer遇到的一個問題是優(yōu)化時間過長,效果不盡如人意,或達(dá)不到理想的效果,而如果沒有對關(guān)鍵詞進(jìn)行排名,那么網(wǎng)站的
View details